1
생성형 인공지능의 세 가지 핵심 요소
AI030Lesson 2
00:00

인공지능이 단순히 해질녘을 인식하는 것을 넘어서, 오히려 공허에서 그림을 그릴 수 있는 세상을 상상해 보세요. 공허에서 그것을 그려내는. 이는 기존의 분류 모델에서 벗어나 판별형 모델들—입력에 대한 출력 확률 $p(output|input)$를 계산하여 기존 데이터에 레이블을 붙이는 것에 집중하는 모델—에서 생성형 인공지능의 광대한 영역으로의 패러다임 전환입니다. 우리는 과거의 경계 설정을 넘어선, 바로 기본 데이터 분포를 모델링하고 있습니다.

합성의 세 가지 기둥 전통적인 기준: $p(output | input)$⚔️GANs적대적🌫️확산노이즈 제거🔗Transformer시퀀스

아키텍처적 풍경 정의하기

우리의 분류 체계는 세 가지 명확하게 구분되는 수학적 전략으로 구성되어 있으며, 각각은 다모달 합성이미지 합성에 대해 독특한 강점을 제공합니다:

  • 생성 적대 네트워크(Generative Adversarial Networks, GANs): 두 개의 신경망 사이의 고위험 경쟁— 생성자 (사기꾼)과 판별자 (수사관). 이 적대적 상호작용 생성자는 점점 더 구분하기 어려운 콘텐츠를 만들도록 강제됩니다.
  • 확산 모델: 혼돈 속에서 질서를 찾는 과정입니다. 이러한 모델들은 데이터에서 반복적으로 노이즈를 추가하고 제거함으로써 데이터에서 노이즈를 반복적으로 추가하고 제거함으로써, 결국 순수한 정적 상태로부터 견고한 표현을 형성하는 능력을 습득합니다.
  • 자기회귀형 Transformer: 시퀀스의 건축가들입니다. 예를 들어 생성형 사전 훈련된 변환기(Generative Pretrained Transformer, GPT)다음 토큰을 예측함으로써 작동합니다 이전까지 모든 내용의 맥락을 바탕으로 작동하며, 장거리에 걸쳐 일관된 서사와 구조를 만들어냅니다.
아키텍처의 융합 효과
현대적인 돌파구는 거의 언제나 하나의 기둥만을 고립적으로 사용하지 않습니다. 예를 들어 스테이블 디퓨전 같은 시스템은 Transformer 텍스트 프롬프트를 이해하기 위해 사용하고, 확산 시각적 픽셀을 구현하는 과정을 활용하며, 종종 변분 자동인코더(Variable Autoencoders, VAEs)를 모델링하고 있습니다.